Replay fuera de política: desaprendizaje eficiente en LLM Aprende cómo ReRULE usa replay off-policy para desaprender LLMs, reutilizando casos difíciles y mejorando retención un 21% sin sacrificar rendimiento. 2026-06-16 · 2 min